Telegram Group & Telegram Channel
Что такое бутстреп (bootstrap) в контексте Data Science?

Это метод для оценки стандартных отклонений и нахождения доверительных интервалов статистических функционалов. Он основан на многократной выборке с возвращением из исходного набора данных. Так создаются «псевдовыборки».

Допустим, у нас есть выборка из неизвестного распределения: [7,2,4]. Мы хотим построить доверительный интервал для среднего.

▪️Начнём с того, что по имеющейся выборке построим много псевдовыборок. Для этого три раза подряд берём случайный элемент из выборки, допуская повторения. Повторяя эту процедуру много раз, мы получим много новых псевдовыборок такого же размера.
▪️У каждой из получившихся псевдовыборок посчитаем среднее. Так мы получим n чисел (по количеству псевдовыборок). Мы предполагаем, что каждое такое число что-то говорит нам об истинном математическом ожидании изначальной выборки.
▪️Мы упорядочиваем эти n чисел по возрастанию, и берём 0.95 интервал из середины. То есть выкидываем 2.5% самых маленьких чисел и 2.5% самых больших чисел. Из оставшихся чисел берём самое маленькое и самое большое — это будут границы нашего доверительного интервала для среднего.

#анализ_данных
#статистика



tg-me.com/ds_interview_lib/288
Create:
Last Update:

Что такое бутстреп (bootstrap) в контексте Data Science?

Это метод для оценки стандартных отклонений и нахождения доверительных интервалов статистических функционалов. Он основан на многократной выборке с возвращением из исходного набора данных. Так создаются «псевдовыборки».

Допустим, у нас есть выборка из неизвестного распределения: [7,2,4]. Мы хотим построить доверительный интервал для среднего.

▪️Начнём с того, что по имеющейся выборке построим много псевдовыборок. Для этого три раза подряд берём случайный элемент из выборки, допуская повторения. Повторяя эту процедуру много раз, мы получим много новых псевдовыборок такого же размера.
▪️У каждой из получившихся псевдовыборок посчитаем среднее. Так мы получим n чисел (по количеству псевдовыборок). Мы предполагаем, что каждое такое число что-то говорит нам об истинном математическом ожидании изначальной выборки.
▪️Мы упорядочиваем эти n чисел по возрастанию, и берём 0.95 интервал из середины. То есть выкидываем 2.5% самых маленьких чисел и 2.5% самых больших чисел. Из оставшихся чисел берём самое маленькое и самое большое — это будут границы нашего доверительного интервала для среднего.

#анализ_данных
#статистика

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/288

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

The S&P 500 slumped 1.8% on Monday and Tuesday, thanks to China Evergrande, the Chinese property company that looks like it is ready to default on its more-than $300 billion in debt. Cries of the next Lehman Brothers—or maybe the next Silverado?—echoed through the canyons of Wall Street as investors prepared for the worst.

The messaging service and social-media platform owes creditors roughly $700 million by the end of April, according to people briefed on the company’s plans and loan documents viewed by The Wall Street Journal. At the same time, Telegram Group Inc. must cover rising equipment and bandwidth expenses because of its rapid growth, despite going years without attempting to generate revenue.

Библиотека собеса по Data Science | вопросы с собеседований from nl


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA